16 research outputs found
Modeling spinal muscular atrophy in Drosophila links Smn to FGF signaling
FGF signaling in neurons is regulated by Survival Motor Neuron, a component of a complex that regulates snRNP biogenesis and FGF receptor expression
Bandit algorithms for data extraction on social media
Dans cette thĂšse, nous nous intĂ©ressons au problĂšme de la collecte de donnĂ©es en temps rĂ©el dans les mĂ©dias sociaux. En raison des diffĂ©rentes limitations imposĂ©es par ces mĂ©dias, mais aussi de la quantitĂ© trĂšs importante de donnĂ©es, il nâest pas envisageable de collecter la totalitĂ© des donnĂ©es produites par des sites tels que Twitter. Par consĂ©quent, pour ĂȘtre en mesure de rĂ©colter des informations pertinentes, relativement Ă un besoin prĂ©dĂ©fini, il est nĂ©cessaire de se focaliser sur un sous-ensemble des donnĂ©es existantes. Dans ce travail, nous considĂ©rons chaque utilisateur dâun rĂ©seau social comme une source de donnĂ©es pouvant ĂȘtre Ă©coutĂ©e Ă chaque itĂ©ration dâun processus de collecte, en vue de capturer les donnĂ©es quâelle produit. Ce processus, dont le but est de maximiser la qualitĂ© des informations rĂ©coltĂ©es, est contraint Ă chaque pas de temps par le nombre dâutilisateurs pouvant ĂȘtre Ă©coutĂ©s simultanĂ©ment. Le problĂšme de sĂ©lection du sous-ensemble de comptes Ă Ă©couter au fil du temps constitue un problĂšme de dĂ©cision sĂ©quentielle sous contraintes, que nous formalisons comme un problĂšme de bandit avec sĂ©lections multiples. Dans cette optique, nous proposons plusieurs modĂšles visant Ă identifier en temps rĂ©el les utilisateurs les plus pertinents. Dans un premier temps, le cas du bandit dit stochastique, dans lequel chaque utilisateur est associĂ© Ă une distribution de probabilitĂ© stationnaire, est Ă©tudiĂ©. Par la suite, nous Ă©tudions deux modĂšles de bandit contextuel, lâun stationnaire et lâautre non stationnaire, dans lesquels lâutilitĂ© de chaque utilisateur peut ĂȘtre estimĂ©e de façon plus efficace en supposant une certaine structure, permettant ainsi de mutualiser lâapprentissage. En particulier, la premiĂšre approche introduit la notion de profil, qui correspond au comportement moyen de chaque utilisateur. La seconde approche prend en compte lâactivitĂ© dâun utilisateur Ă un instant donnĂ© pour prĂ©dire son comportement futur. Pour finir, nous nous intĂ©ressons Ă des modĂšle permettant de prendre en compte des dĂ©pendances temporelles complexes entre les utilisateurs, grĂące Ă des transitions entre Ă©tats cachĂ©s du systĂšme dâune itĂ©ration Ă la suivante. Chacune des approches proposĂ©es est validĂ©e sur des donnĂ©es artificielles et rĂ©elles.In this thesis, we study the problem of real time data capture on social media. Due to the different limitations imposed by those media, but also to the very large amount of information, it is not possible to collect all the data produced by social networks such as Twitter. Therefore, to be able to gather enough relevant information related to a predefined need, it is necessary to focus on a subset of the information sources. In this work, we focus on user-centered data capture and consider each account of a social network as a source that can be listened to at each iteration of a data capture process, in order to collect the corresponding produced contents. This process, whose aim is to maximize the quality of the information gathered, is constrained at each time step by the number of users that can be monitored simultaneously. The problem of selecting a subset of accounts to listen to over time is a sequential decision problem under constraints, which we formalize as a bandit problem with multiple selections. Therefore, we propose several bandit models to identify the most relevant users in real time. First, we study of the case of the so-called stochastic bandit, in which each user corresponds to a stationary distribution. Then, we introduce two contextual banditmodels, one stationary and the other non stationary, in which the utility of each user can be estimated more efficiently by assuming some underlying structure in the reward space. In particular, the first approach introduces the notion of profile, which corresponds to the average behavior of each user. On the other hand, the second approach takes into account the activity of a user at a given instant in order to predict his future behavior. Finally, we are interested in models that are able to take into account complex temporal dependencies between users, with the use of a latent space within which the information transits from one iteration to the other. Moreover, each of the proposed approaches is validated on both artificial and real datasets
Algorithmes de bandits pour la collecte dâinformations en temps rĂ©el dans les rĂ©seaux sociaux
In this thesis, we study the problem of real time data capture on social media. Due to the different limitations imposed by those media, but also to the very large amount of information, it is not possible to collect all the data produced by social networks such as Twitter. Therefore, to be able to gather enough relevant information related to a predefined need, it is necessary to focus on a subset of the information sources. In this work, we focus on user-centered data capture and consider each account of a social network as a source that can be listened to at each iteration of a data capture process, in order to collect the corresponding produced contents. This process, whose aim is to maximize the quality of the information gathered, is constrained at each time step by the number of users that can be monitored simultaneously. The problem of selecting a subset of accounts to listen to over time is a sequential decision problem under constraints, which we formalize as a bandit problem with multiple selections. Therefore, we propose several bandit models to identify the most relevant users in real time. First, we study of the case of the so-called stochastic bandit, in which each user corresponds to a stationary distribution. Then, we introduce two contextual banditmodels, one stationary and the other non stationary, in which the utility of each user can be estimated more efficiently by assuming some underlying structure in the reward space. In particular, the first approach introduces the notion of profile, which corresponds to the average behavior of each user. On the other hand, the second approach takes into account the activity of a user at a given instant in order to predict his future behavior. Finally, we are interested in models that are able to take into account complex temporal dependencies between users, with the use of a latent space within which the information transits from one iteration to the other. Moreover, each of the proposed approaches is validated on both artificial and real datasets.Dans cette thĂšse, nous nous intĂ©ressons au problĂšme de la collecte de donnĂ©es en temps rĂ©el dans les mĂ©dias sociaux. En raison des diffĂ©rentes limitations imposĂ©es par ces mĂ©dias, mais aussi de la quantitĂ© trĂšs importante de donnĂ©es, il nâest pas envisageable de collecter la totalitĂ© des donnĂ©es produites par des sites tels que Twitter. Par consĂ©quent, pour ĂȘtre en mesure de rĂ©colter des informations pertinentes, relativement Ă un besoin prĂ©dĂ©fini, il est nĂ©cessaire de se focaliser sur un sous-ensemble des donnĂ©es existantes. Dans ce travail, nous considĂ©rons chaque utilisateur dâun rĂ©seau social comme une source de donnĂ©es pouvant ĂȘtre Ă©coutĂ©e Ă chaque itĂ©ration dâun processus de collecte, en vue de capturer les donnĂ©es quâelle produit. Ce processus, dont le but est de maximiser la qualitĂ© des informations rĂ©coltĂ©es, est contraint Ă chaque pas de temps par le nombre dâutilisateurs pouvant ĂȘtre Ă©coutĂ©s simultanĂ©ment. Le problĂšme de sĂ©lection du sous-ensemble de comptes Ă Ă©couter au fil du temps constitue un problĂšme de dĂ©cision sĂ©quentielle sous contraintes, que nous formalisons comme un problĂšme de bandit avec sĂ©lections multiples. Dans cette optique, nous proposons plusieurs modĂšles visant Ă identifier en temps rĂ©el les utilisateurs les plus pertinents. Dans un premier temps, le cas du bandit dit stochastique, dans lequel chaque utilisateur est associĂ© Ă une distribution de probabilitĂ© stationnaire, est Ă©tudiĂ©. Par la suite, nous Ă©tudions deux modĂšles de bandit contextuel, lâun stationnaire et lâautre non stationnaire, dans lesquels lâutilitĂ© de chaque utilisateur peut ĂȘtre estimĂ©e de façon plus efficace en supposant une certaine structure, permettant ainsi de mutualiser lâapprentissage. En particulier, la premiĂšre approche introduit la notion de profil, qui correspond au comportement moyen de chaque utilisateur. La seconde approche prend en compte lâactivitĂ© dâun utilisateur Ă un instant donnĂ© pour prĂ©dire son comportement futur. Pour finir, nous nous intĂ©ressons Ă des modĂšle permettant de prendre en compte des dĂ©pendances temporelles complexes entre les utilisateurs, grĂące Ă des transitions entre Ă©tats cachĂ©s du systĂšme dâune itĂ©ration Ă la suivante. Chacune des approches proposĂ©es est validĂ©e sur des donnĂ©es artificielles et rĂ©elles